Лабораторная Работа №3
Выполнил студент группы ИИм - 231
Андрей Серов
Вариант 17
Часть 1
В данной части работа выполняется с набором данных Fish.csv.
1) Вывести датасет и типы его переменных
Рисунок 1 – Датасет и его переменные.
Как видно из рисунка выше, в датасете есть 7 переменных:
Species Вид рыбы.
Weight Вес рыбы.
Length1 Длина рыбы (Измерение в первом месте).
Length2 Длина рыбы (Измерение во втором месте).
Length3 Длина рыбы (Измерение в третьем месте).
Height Высота рыбы.
Width Ширина рыбы.
Все переменные имеют тип Float (числа с плавающей запятой), кроме
переменной Species которая имеет тип - , или же в нашем случае String
(строковый тип).
2) Используя визуализацию, покажите, сколько различных видов рыб
включает ваш набор данных.
Рисунок 2 – Диаграмма распределения количества рыб по видам
Как видно из рисунка, всего в нашем датасете представлены 7 видов рыб:
Perch Окунь
Bream Лещ
Roach Плотва
Pike Щука
Smelt Корюшка
Parkki Ёрш
Whitefish Белая рыба
3) Исследуйте, есть ли какие - либо зависимые переменные.
Рисунок 3 – Диаграмма рассеивания для параметров Length1 и Height.
Рисунок 4 Диаграмма рассеивания для параметров Length1 и Width.
Рисунок 5 Диаграмма рассеивания для параметров Length1 и Weight.
Рисунок 6 Диаграмма рассеивания для параметров Width и Height.
Рисунок 7 – Диаграмма рассеивания для параметров Width и Weight.
Рисунок 8 Диаграмма рассеивания для параметров Weight и Height.
Нами были построены 5 диаграмм рассеивания для выявления зависимости
между параметрами Length1, Weight, Height и Width. По построенным
диаграммам можно сделать следующие выводы:
Между Length1 и Height существует линейная зависимость, чем больше
длинна, тем больше и высота рыбы;
Между Width и Height существует линейная зависимость, чем больше
ширина рыбы, тем больше её высота;
Между параметрами Weight и Height также существует линейная
зависимость, чем больше вес, тем больше высота;
Ширина рыбы линейно зависима от длины рыбы;
Длина рыбы нелинейно зависима от веса рыбы, при увеличении веса,
значительно увеличивается длина;
Ширина рыбы нелинейно зависима от веса рыбы, при увеличении веса,
ширина значительно увеличивается.
4) Определите тип распределения количественных переменных
Рисунок 9.1 Диаграмма распределения веса рыб.
Рисунок 9.2 Диаграмма распределения первой длинны рыб.
Рисунок 9.3 Диаграмма распределения второй длинны рыб.
Рисунок 9.4 Диаграмма распределения третьей длинны рыб.
Рисунок 9.5 Диаграмма распределения высоты рыб.
Рисунок 9.6 – Диаграмма распределения ширины рыб.
По полученным графикам можно сделать вывод что большая часть
параметров имеет нормальное распределение, в то время как вес рыб имеет
распределение Рэлея, при котором чем больше вес рыбы, тем меньше
количество рыб с таким весом.
5) Существуют ли в этом наборе данных аномальные наблюдения?
Для определения наличия аномальных значений можно воспользоваться
графиками из предыдущего пункта (Рисунки 9.1 – 9.6). На них можно увидеть
распределение количества рыб, относительно значений определенного
параметра. Ни на одном из графиков не присутствуют аномальные значений,
сильно отличающиеся в большую или меньшую сторону от остальных
значений, а значит можно сделать вывод об отсутствии аномальных значений.
6) Проверьте данные на наличие пропущенных значений.
Рисунок 10 – Определение наличия пропущенных значений.
Для наглядности построим график, на котором черным отображаются
пропуски значений, а светло фиолетовым присутствующие значений
параметров. График также подтверждает то, что в рассматриваемом наборе
данных нет пропущенных значений.
7) Реализовать визуализацию многомерных данных.
Рисунок 11.1 Визуализация многомерных данных в виде параллельных
координат.
Из данного рисунка можно сделать вывод, что все рыбы вида
«Корюшка» обладают малыми размерами и весом, а самыми крупными
являются рыбы вида «Щука».
Рисунок 11.2 Визуализация многомерных данных в виде кривых Эндрюса.
Как видно из данного графика, выводы по поводу наименьших и
наибольших по размеру видов рыб, сделанных по предыдущему графику,
подтверждаются.
8) Регрессионный анализ по 2 параметрам
Далее построим модель линейной регрессии, где целевой переменной (y)
будет значение параметра Weight, а зависимой переменной (x) будет параметр
Length1. Так как строить модель для всех видов рыб одновременно
нецелесообразно из - за выявленных ранее различий в размерах различных
видов рыб, то мы будем строить модель только для вида «Окунь» так как он
является самым распространенным в нашем датасете.
Рисунок 12 – Диаграмма рассеивания для всех пар значений.
Далее мы создаём модель линейной регрессии, разделив значения на
тренировочные и тестовые части в пропорции 8 к 2. После, по полученной из
тренировочных значений модели рассчитаем предсказанные значения для
тестовой части значений, и сравним их с действительными значениями.
Рисунок 13 – Сравнение действительных и предсказанных значений.
Рисунок 14 – Сравнение графиков действительных значений и
предсказанных.
По полученным результатам можно увидеть, что средняя ошибка
аппроксимации (отличие действительных значений от предсказанных)
составляет 53,93%, что является плохим результатом. Наибольшие отличия
наблюдаются при расчёте для малых значений длины рыбы.
9) Регрессионный анализ по нескольким параметрам
Повторим построение модели линейной регрессии из предыдущего
пункта, только в этот раз в качестве зависимых переменных будут выступать
все доступные атрибуты.
Рисунок 15 - Сравнение действительных и предсказанных значений.
Рисунок 16 – График отклонения предсказанного значения от
действительного.
На рисунке 16 показан график отклонения значений, где в качестве оси
X взяты действительные значения веса, а на оси Y отклонение предсказанных
значений от действительных в граммах. Как можно заметить, при малом весе
отклонение выше, чем при более крупном весе.
По построенной модели линейной регрессии можно увидеть, что
средняя ошибка аппроксимации тличие действительных значений от
предсказанных) составляет 52,88%, что на 1,05% лучше, чем у модели,
построенной по двум параметрам. Однако отклонение более чем на 50% все
ещё можно считать плохим результатом.
10) Удаление аномальных и пропущенных значений и выявление
качественных изменений в модели.
Как было выявлено ранее, в наборе данных отсутствуют аномальные и
пропущенные значения, а значит очистка данных не представляется
возможной.
Часть 2
В данной части работа выполняется с набором данных dataset.csv, в
которых хранятся данные о конечной стоимости акций 2021 - 2023.
1. Вывести датасет и типы его переменных
Рисунок 17.1 – Датасет dataset.csv
Данный датасет состоит из 7 переменных:
a. Дата
b. Аэрофлот
c. Газпром
d. Сбербанк
e. Яндекс
f. Золото
g. Доллар
2. Используя визуализацию отобразить количественное распределение по
различным показателям
Рис. 18.1 18.6 Графики изменений цены ценных бумаг во времени
3. Исследуйте есть ли какие-нибудь зависимые параметры.
На данных графиках можно заметить, что цена ценных бумаг зависит от
доллара
4. Определите тип распределения количественных переменных
Для золота - нормальное
5. Существуют ли в этом наборе данных аномальные наблюдения?
В данном наборе присутствуют аномальные наблюдения, такие как резкое
падение цены на все акции в один промежуток времени.
6. Проверьте данные на наличие пропущенных значений.
Рисунок 20 – График наличия пропущенных значений в датасете dataset.csv.
Из данного графика видно, что в данном датасете отсутствуют пропущенные
значения
7. Реализовать визуализацию многомерных данных.
Рисунок 21 – Визуализация данных в виде параллельных координат.
Остальные типы графиков не представляется возможным построить из - за
большого количества строк в наборе данных.